查看原文
其他

Gemini 时代:迈向通用人工智能的第一步!

lencx 浮之静 2024-03-10

在谷歌的最新博客文章 Introducing Gemini: our largest and most capable AI model[1] 中,Sundar Pichai(Google 和 Alphabet CEO)及 Demis Hassabis(Google DeepMind CEO 和联合创始人)共同介绍了谷歌在人工智能领域的最新突破——双子座(Gemini)。这一多功能且强大的 AI 模型代表了行业的一个标志性进展。文章详尽地阐述了 Gemini 在多种任务和基准测试上的卓越性能,尤其在多模态理解(涵盖文本、图像、音频等)方面的重大突破。

Sundar Pichai 着重强调了人工智能在技术转型中的关键作用,他认为当前的 AI 变革是历史上最为深远的。并提到,人工智能将为全球带来前所未有的机遇,推动知识、学习、创造力和生产力的发展。同时,Demis Hassabis 分享了他对人工智能的深厚热情,并解释了 Gemini 如何从一开始就被设计成一个原生多模态模型,这使其能够更高效地处理和理解各类信息,尤其在高级编程和复杂推理方面表现突出。此外,文章还强调了谷歌在安全、责任和合作方面的承诺,详细说明了在 Gemini 开发过程中对潜在风险的考虑和应对策略。

最后概述了 Gemini 将如何融入谷歌的众多产品和服务,并预测了它对未来创新的潜在影响。这不仅标志着谷歌在 AI 领域迈入新时代,也预示了 AI 将如何改变科学、技术以及我们日常生活的方方面面。

以下是 Gemini 视频演示,出自 How it’s Made: Interacting with Gemini through multimodal prompting[2]

📌 Sundar Pichai

1972 年出生于印度,是一位杰出的美国商业执行官,以其在全球科技行业的重大贡献而闻名。他在材料工程领域开始了他的职业生涯,并在短暂的时间内为管理咨询公司麦肯锡公司(McKinsey & Co.)工作。2004 年,Pichai 加入谷歌,开始了他在该公司的辉煌职业生涯。

在谷歌,Pichai 主要负责产品管理和创新,他在推动谷歌浏览器 Chrome、ChromeOS 操作系统以及 Google Drive 等关键产品的发展中发挥了至关重要的作用。此外,他还监督了 Gmail 和 Google Maps 等其他重要应用程序的开发。2010 年,他宣布了谷歌新视频编解码器 VP8 的开源,并推出了新的视频格式 WebM。2012 年,他参与推出了 Chromebook。

2013 年,Pichai 的职责范围进一步扩大,包括了监督 Android 操作系统。2015 年 8 月 10 日,他被任命为谷歌的 CEO,随后在 Alphabet Inc. 成立后接任该公司的 CEO。2017 年,他进一步被任命为 Alphabet 董事会的成员。Pichai 在技术领域的影响力和商业领域的成功使他两次被《时代》杂志评为年度最具影响力的 100 人之一,分别在 2016 年和 2020 年。他的领导和创新在塑造当今数字世界方面起到了关键作用。

📌 Demis Hassabis

杰出的英国计算机科学家、人工智能研究员和企业家。他的早期职业生涯涵盖了视频游戏 AI 的编程和设计,以及专业棋盘游戏的玩家。Hassabis 是 DeepMind 和 Isomorphic Labs[3] 的联合创始人兼首席执行官,并担任英国政府的 AI 顾问。他在 AlphaFold[4] 项目上的工作为他赢得了包括突破奖(Breakthrough Prize)在内的多项国际大奖,并在 2017 年被授予 CBE 勋章,同时也被列入《时代》杂志年度最有影响力人物榜单。

Hassabis 与合作伙伴在 2010 年伦敦创立的 DeepMind,旨在“解决智能”问题,并利用这一成果来解决其他领域的问题。DeepMind 通过结合神经科学的洞见和机器学习的新发展,致力于开发强大的通用学习算法,并朝着创造人工通用智能(AGI)的目标前进。公司在 AI 领域的一些显著成就包括开发了 AlphaGo 程序,这个程序在复杂的围棋游戏中击败了世界冠军李世石,以及在蛋白质折叠的领域取得了突破性的进展,特别是通过 AlphaFold 工具在 CASP 竞赛中取得了优异的成绩。

Hassabis 还参与了深度学习和强化学习的重要研究,他的工作在科学界产生了广泛的影响,并多次被《科学》杂志评为年度十大科学突破之一。他坚信人工智能将是人类史上最有益的技术之一,尽管也强调需要认真对待伴随其发展的伦理问题。

📌 VP8

VP8 是一种开源视频压缩格式和编解码器技术,最初由 On2 Technologies 开发。这种格式的主要特点是它提供了高效的视频压缩,同时保持了较高的图像质量,这使得它非常适合用于网络视频和流媒体。

Google 在 2010 年收购了 On2 Technologies 后,将 VP8 开源,并将其作为 WebM[5] 项目的一部分推广。WebM 是一种专门针对网络使用优化的媒体文件格式,它结合了 VP8 视频编解码器和 Vorbis 或 Opus 音频编解码器。

VP8 的开源意味着它可以免费用于各种应用,无需担心专利费用或授权限制。这一特点使得 VP8 受到了许多开发者和内容创作者的欢迎,它在许多网络浏览器和视频服务中被广泛支持。随后,Google 还开发了 VP9,这是 VP8 的继任者,提供了更高的压缩效率和更好的视频质量。

Gemini 原文速读

Sundar Pichai 寄语

每一次技术革新都是推动科学探索、加速人类发展及改善生活的重要机遇。我坚信,我们目前见证的人工智能变革,将是我们这一生中最为深远的变化,它甚至将超越之前的移动互联网革命。人工智能拥有创造可能性的潜力,这不仅局限于日常生活,更能惠及全球每个角落的人们。它将引领创新和经济发展的新浪潮,并在前所未有的规模上推动知识获取、学习、创造力和生产力的提升。

令我激动的是,我们有机会让人工智能惠及世界上的每一个人。

作为一家以人工智能为核心的公司,我们已经走过了近八年的历程,而我们的进步正不断加速:如今,已有数百万人在使用我们的产品中的生成型人工智能,做着一年前难以想象的事情,比如解决更复杂的问题,或使用全新的工具进行协作和创新。同时,开发者们正利用我们的模型和基础设施开发新的生成型人工智能应用,全球众多初创企业和大型企业也在使用我们的人工智能工具实现成长。

这是一股不可思议的势头,但我们仅仅触及了可能性的冰山一角。

我们在这项工作中兼具胆识与责任感。这意味着我们的研究充满雄心壮志,并致力于开发能为人类社会带来巨大利益的能力。同时,我们也在建立安全措施,并与政府和专家合作,共同应对人工智能愈发强大所带来的风险。我们继续投资于顶尖的工具、基础模型和基础设施,并在我们的产品及其他产品中应用它们,这一切都受到我们人工智能原则的指导(Our Principles[6])。

现在,我们正在迈出 Gemini 项目旅程的下一步,这是我们迄今为止最强大、最通用的模型,它在多项领先的基准测试中展现了前沿性能。我们的第一个版本 Gemini 1.0,针对不同规模的需求进行了优化,包括 Ultra、Pro 和 Nano 版本。这些是 Gemini 时代的首批模型,也是今年早些时候我们成立谷歌 DeepMind 时愿景的初次实现。这个新时代的模型代表了我们公司在科学和工程领域所做的最大努力之一。我对即将到来的发展以及 Gemini 为全球人民带来的机遇感到无比兴奋。

Gemini 简介

由谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 代表 Gemini 团队发表。

人工智能始终是我职业生涯的核心。自从少年时代开始为电脑游戏编写人工智能程序,到成为神经科学研究员探索大脑的奥秘,我始终坚信,通过构建更智能的机器,我们可以以惊人的方式造福人类。

这种理念推动我们在谷歌 DeepMind 的不懈努力。我们长期致力于打造一代新型人工智能模型,灵感源自于人类理解世界和与之互动的方式。我们希望它不仅仅是一个智能软件,而是一个实用直观的东西——就像一个专业的助手或助理。

今天,我们迈向这一愿景又近了一步,Gemini ——我们迄今构建的最强大、最通用的模型。

Gemini 是谷歌多团队协作的成果,涵盖了谷歌研究中心的同事们。它从一开始就被设计为多模态,能够综合和无缝地处理和理解不同类型的信息,包括文本、代码、音频、图像和视频。

Gemini 也是我们迄今最灵活的模型,能够高效运行于从数据中心到移动设备的各种平台。它先进的能力将显著改善开发者和企业客户使用人工智能构建和扩展应用的方式。

我们的第一个版本 Gemini 1.0,有三种不同的规模优化:

  • Ultra:最大、能力最强的模型,适用于极其复杂的任务。

  • Pro:中型、最佳的模型,适合处理广泛任务。

  • Nano:小型、最高效的模型,适用于设备端任务。

一流性能

我们已经在广泛的任务上对 Gemini 模型进行严格测试,并评估了它们的性能。从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在用于大型语言模型(LLM)研究和开发中广泛使用的 32 个学术基准中超过了当前最先进结果中的 30 个。

在 MMLU(massive multitask language understanding,大规模多任务语言理解)测试中,Gemini Ultra 以 90.0% 的成绩首次超越人类专家,MMLU 使用数学、物理、历史、法律、医学和伦理等 57 个主题的组合来测试世界知识和解决问题的能力。

📌 MMLU

Measuring Massive Multitask Language Understanding[7]

我们提出了一种新的测试,用于衡量文本模型在多任务准确性上的表现。这项测试涵盖了 57 项任务,包括基础数学、美国历史、计算机科学、法律等领域。要在这个测试中获得高准确率,模型必须具备广泛的世界知识和解决问题的能力。我们发现,尽管大多数最新模型的准确率几乎与随机机会相当,但最大的 GPT-3 模型在平均水平上比随机机会高出近 20 个百分点。然而,在这 57 项任务中的每一项上,最优秀的模型在达到专家级准确率之前仍需要大幅改进。模型的表现也不均衡,且经常不知道自己何时是错的。更糟糕的是,它们在一些社会重要主题上,如道德和法律,仍然接近随机准确率。通过全面评估模型在学术和专业理解方面的广度和深度,我们的测试可以用来分析多个任务中的模型,并识别重要的不足之处。

我们对 MMLU 的新基准方法使 Gemini 能够在回答困难问题之前使用其推理能力更加谨慎地思考,从而实现了相较于仅使用其第一印象的显著提高。

Gemini 在文本和编码等一系列基准测试中超越了最先进的性能

在新的 MMMMU 基准测试中,Gemini Ultra 也取得了 59.4% 的高分,该测试包括需要深思熟虑的推理的不同领域的多模态任务。

📌 MMMU

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI[8]

这是一个新的基准测试,旨在评估多模态模型在需要大学水平学科知识和深思熟虑推理的大规模多学科任务上的表现。MMMU 包括从大学考试、测验和教科书中精心收集的 11.5K 多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程。这些问题跨越 30 个学科和 183 个子领域,包含 30 种高度异质的图像类型,如图表、图解、地图、表格、乐谱和化学结构。与现有的基准测试不同,MMMU 专注于具有领域特定知识的高级感知和推理,挑战模型执行类似于专家面临的任务。我们对 14 个开源的大型多模态模型(LMMs)和专有的 GPT-4V(ision) 的评估凸显了 MMMU 所提出的重大挑战。即使是先进的 GPT-4V 也仅实现了 56% 的准确率,表明有显著的改进空间。我们相信,MMMU 将激励社区构建下一代多模态基础模型,朝向专家级人工通用智能的发展。

在我们测试的图像基准中,Gemini Ultra 在没有使用对象字符识别(OCR)系统(提取图像中的文本进行进一步处理)的帮助下,超越了以前的最先进模型。这些基准突显了 Gemini 的原生多模态,表明了 Gemini 更复杂推理能力的早期迹象。

📌 OCR

OCR 代表“光学字符识别”(Optical Character Recognition)。这是一种技术,用于将各种类型的文档(如扫描的纸质文档、PDF 文件或数字摄影图像)中的文字转换成机器编码的文本。简而言之,OCR 技术可以从图像中识别和提取文字。

OCR 技术的应用非常广泛,包括文档数字化(如将纸质档案转换为电子文档)、自动车牌识别、银行支票处理、自动表单填写以及在智能手机应用程序中识别文本等。随着技术的发展,现代 OCR 系统能够以高精度识别多种字体和语言的文本,并且在处理畸变、杂乱背景和不同的文本布局方面也变得更加强大。

查看技术报告,了解更多 Gemini technical report[9]

Gemini 在一系列多模态基准测试中超越了最先进的性能

下一代能力

目前,创建多模态模型的常规方法是训练不同模态的单独组件,然后将它们组合起来。这些模型有时能很好地完成任务,比如描述图像,但在更概念化和复杂的推理上则有所欠缺。

我们设计 Gemini 从一开始就是原生多模态的,对不同模态进行预训练。然后,我们通过额外的多模态数据进行微调,以提升其效果。这使得 Gemini 能够从一开始就无缝地理解和推理各种输入,远超现有多模态模型。

了解更多 Gemini’s capabilities and see how it works[10]

复杂推理

Gemini 1.0 具有复杂的多模式推理能力,能够理解复杂的书面和视觉信息,特别擅长在海量数据中挖掘难以察觉的知识。

它的能力在理解和提取信息方面表现卓越,将有助于科学到金融等多个领域实现数字化速度的新突破。

多模态理解

Gemini 1.0 被训练为同时识别和理解文本、图像、音频等,因此它能更好地理解细微信息,并回答复杂主题相关的问题。这使它在数学和物理等复杂学科中表现出色。

高级编程

Gemini 1.0 可以理解、解释和生成主流编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。Gemini Ultra 在多个编码基准测试中表现出色,包括 HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(我们内部保留的数据集),该数据集使用作者生成的源而不是基于网络的信息。

📌 HumanEval

Evaluating Large Language Models Trained on Code[11]

我们介绍了 Codex,这是一个在 GitHub 上公开可用的代码上进行微调的 GPT 语言模型,并研究了它编写 Python 代码的能力。一个特定的生产版本的 Codex 支持 GitHub Copilot。在我们发布的用于衡量从文档字符串合成程序的功能正确性的新评估集 HumanEval 上,我们的模型解决了 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。此外,我们发现从模型中重复采样是产生难题有效解决方案的一个令人惊讶的有效策略。使用这种方法,我们用每个问题 100 个样本解决了 70.2% 的问题。对我们的模型进行仔细研究揭示了其局限性,包括难以处理描述长串操作的文档字符串和将操作绑定到变量的困难。最后,我们讨论了部署强大的代码生成技术的潜在更广泛影响,包括安全性、安全和经济方面。

Gemini 还可以用作更高级编码系统的引擎。两年前,我们推出了 AlphaCode[12],这是第一个在编程竞赛中达到竞争性能水平的人工智能代码生成系统。使用 Gemini 的特制版,我们创建了更先进的代码生成系统 AlphaCode 2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞赛编程问题。

在与原 AlphaCode 相同的平台上测试时,AlphaCode 2 显示出显著提升,解决问题数量近乎翻倍。当程序员与 AlphaCode 2 合作时,其表现更为出色。我们很高兴看到程序员越来越多地使用高能力的人工智能模型作为合作工具,帮助他们思考问题、设计代码,并加快应用程序的发布和服务的优化。

了解更多 AlphaCode 2 technical report[13]

更可靠、可扩展和高效

我们在谷歌内部设计的张量处理单元(TPUs:Tensor Processing Units)v4 和 v5e 上,使用 AI 优化基础设施对 Gemini 1.0 进行了大规模训练。使其成为我们最可靠和可扩展的模型,同时也是最高效的服务模型。

在 TPU 上,Gemini 的运行速度远超之前的较小且功能有限的模型。这些定制 AI 加速器是谷歌服务数十亿用户的 AI 驱动产品的核心,如搜索、YouTube、Gmail、Google Maps、Google Play 和 Android。它们也使全球公司能够以成本效益的方式训练大型人工智能模型。

今天(2023.12.06),我们宣布了迄今为止最强大、最高效、最具扩展性的 TPU 系统—— Cloud TPU v5p[14],专为训练尖端人工智能模型而设计。这款一代 TPU 将加速 Gemini 的开发,帮助开发者和企业客户更快地训练大型生成式人工智能模型,让新产品和能力更快地到达客户。

Google 数据中心内排列的 Cloud TPU v5p AI 加速器超级计算机

安全与责任

Gemini 在开发过程中强调了责任和安全。该模型经过了谷歌历史上最全面的安全评估,包括对偏见和毒性的检查。在开发的每个阶段,谷歌考虑了潜在的风险,采用了对抗测试技术,并与外部专家合作进行压力测试,以确保 Gemini 的安全性和可靠性。

为了进一步增强内容安全,谷歌使用了如 Real Toxicity Prompts[15] 的基准(这是一组从网络中提取的 10 万个具有不同程度毒性的提示,由 Allen 研究所的专家开发),并构建了专门的安全分类器来识别和过滤涉及暴力或负面刻板印象的内容。谷歌还在持续解决模型中的已知挑战,如事实性和归因问题。

谷歌强调,责任和安全是其人工智能模型开发和部署的核心。公司与行业及更广泛的生态系统合作,通过组织如 MLCommons[16] 和安全人工智能框架(Secure AI Framework (SAIF)[17])等设定安全和安全标准。

Gemini 1.0 现在正逐步应用于谷歌的一系列产品和平台。例如,Bard 将使用 Gemini Pro 来提供更高级的推理和理解能力(Bard will use a fine-tuned version of Gemini Pro[18]),并将在 170 多个国家和地区提供(注意:目前仅支持英语,计划在不久的将来支持更多模式、新语言和地区)。Pixel 8 Pro 成为首款搭载 Gemini Nano 的智能手机(bringing Gemini to Pixel[19]),带来新功能,如摘要和智能回复(首先支持 WhatsApp,明年将拓展至更多消息应用)。

此外,Gemini 将在未来几个月内应用于更多谷歌产品和服务,如搜索、广告、Chrome 和 Duet AI。还将在 12 月 13 日之后通过 Google AI Studio 或 Google Cloud Vertex AI[20] 向开发者和企业客户提供 Gemini Pro 的访问。

Android 开发人员还可以通过 AICore(Android 14 中提供的新系统功能,从 Pixel 8 Pro 设备开始)使用 Gemini Nano(我们最高效的设备端任务模型)进行构建。注册 AICore 的早期预览版(early preview of AICore[21])。

谷歌还在对 Gemini Ultra 进行广泛的信任和安全检查,并计划在明年初向开发者和企业客户推出。同时,谷歌也在计划推出 Bard Advanced[22],提供最先进的人工智能体验。

这标志着谷歌在人工智能发展中的重要里程碑,展示了公司在快速创新和负责任地推进其模型能力方面的新时代。

其他资讯

MLX

MLX[23] 是一个由苹果机器学习研究团队开发的数组框架(Array Framework),专为苹果硅芯片(如 M 系列芯片)上的高效、灵活的机器学习而设计。这个框架类似于 NumPy,但优化了对 Apple 芯片的支持,并采用了类似于 PyTorch 的神经网络框架风格。MLX 提供了一个出色的 API 设计,对深度学习开发者来说既熟悉又易于使用,同时还包含了一些著名的开源模型示例(mlx-examples[24],如 Llama、LoRA、Stable Diffusion 和 Whisper 等)。

MLX 的设计灵感源自 PyTorch[25]Jax[26]ArrayFire[27] 等框架。它的独特之处在于统一的内存模型,允许数组存在于共享内存中,支持在多种设备上执行操作而无需数据复制,目前支持的设备类型包括 CPU 和 GPU。

MLX 与 NumPy 主要区别有:

  • 可组合函数转换:MLX 具有可组合的函数转换功能,用于自动微分、自动向量化和计算图优化。

  • 惰性计算:MLX 中的计算是惰性的,数组只有在需要时才被实例化。

  • 多设备运行:操作可在任何支持的设备(CPU、GPU 等)上运行。

📌 Array Framework

数组框架是一种专门设计的软件环境,用于高效地创建、处理和操作多维数组结构。这些框架提供了丰富的数学和统计功能,使其成为数据科学和机器学习领域的关键工具。它们的核心优势包括处理大型数据集的高效性能、直观易用的编程接口、以及对复杂数学运算的广泛支持。此外,这些框架通常可以跨多种硬件平台(如 CPU 和 GPU)运行,提供了灵活性和可扩展性,以满足不断增长的计算需求。代表性的例子包括 NumPy、PyTorch 和 TensorFlow 等,它们不仅支持基本的数组操作,还为机器学习和深度学习模型的开发和训练提供了强大的支持。

以下视频是在 MLX 中实现并在 M2 Ultra 上运行的 Llama v1 7B 模型。

Optimum-NVIDIA

Optimum-NVIDIA 是 HF 与 NVIDIA 合作推出的项目,通过一个极其简单的 API,显著加速了 NVIDIA 平台上的 LLM 推理。仅需更改一行代码,即可在 NVIDIA 平台上实现高达每秒 1,200 个 token 和 28 倍的推理速度提升。了解更多 Optimum-NVIDIA - Unlock blazingly fast LLM inference in just 1 line of code[28]

References

[1]

Introducing Gemini: our largest and most capable AI model: https://blog.google/technology/ai/google-gemini-ai

[2]

How it’s Made: Interacting with Gemini through multimodal prompting: https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[3]

Isomorphic Labs: https://www.isomorphiclabs.com

[4]

AlphaFold: https://deepmind.google/technologies/alphafold

[5]

WebM: https://www.webmproject.org

[6]

Our Principles: https://ai.google/responsibility/principles

[7]

Measuring Massive Multitask Language Understanding: https://arxiv.org/abs/2009.03300

[8]

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI: https://arxiv.org/abs/2311.16502

[9]

Gemini technical report: https://goo.gle/GeminiPaper

[10]

Gemini’s capabilities and see how it works: https://deepmind.google/technologies/gemini

[11]

Evaluating Large Language Models Trained on Code: https://arxiv.org/abs/2107.03374

[12]

AlphaCode: https://deepmind.google/discover/blog/competitive-programming-with-alphacode

[13]

AlphaCode 2 technical report: https://goo.gle/AlphaCode2

[14]

Cloud TPU v5p: https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer

[15]

Real Toxicity Prompts: https://allenai.org/data/real-toxicity-prompts

[16]

MLCommons: https://mlcommons.org

[17]

Secure AI Framework (SAIF): https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework

[18]

Bard will use a fine-tuned version of Gemini Pro: https://blog.google/products/bard/google-bard-try-gemini-ai

[19]

bringing Gemini to Pixel: https://blog.google/products/pixel/pixel-feature-drop-december-2023

[20]

Google Cloud Vertex AI: https://cloud.google.com/vertex-ai

[21]

early preview of AICore: https://android-developers.googleblog.com/2023/12/a-new-foundation-for-ai-on-android.html

[22]

Bard Advanced: https://blog.google/products/bard/google-bard-try-gemini-ai

[23]

MLX: https://github.com/ml-explore/mlx

[24]

mlx-examples: https://github.com/ml-explore/mlx-examples

[25]

PyTorch: https://pytorch.org

[26]

Jax: https://github.com/google/jax

[27]

ArrayFire: https://arrayfire.org

[28]

Optimum-NVIDIA - Unlock blazingly fast LLM inference in just 1 line of code: https://huggingface.co/blog/optimum-nvidia

继续滑动看下一个

Gemini 时代:迈向通用人工智能的第一步!

lencx 浮之静
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存